Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet
値を入れたらAEなのでそれだけの出力が出る。
そして出力したベクトルは各ベクトルの次元が1つの意味概念を表す。
https://scrapbox.io/files/66abb017c40e43001d3fabb0.png
なので、そのベクトルを使って単語への色付けができる。
入力ベクトルの次元ではなく単語次元のベクトルだと思われる?
なるほど。
https://scrapbox.io/files/66abb133d8115f001d46c523.png
https://scrapbox.io/files/66abb1582f2570001ce958ef.png
先行研究ではMLP層の出力を切り出して、スパースAEに入力し学習。
これによりスパース特徴量を取り出す。
https://scrapbox.io/files/668e926bde0c80001ea46f37.png
同様にLLMの中間を取り出してスパースAEを学習している。
Residual部って書いてた。
上の図の緑は途中の出力を取り出しているって意味。